Nonnegative Tucker Factorization (NTF) minimizes the euclidean distance or Kullback-Leibler divergence between the original data and its low-rank approximation which often suffers from grossly corruptions or outliers and the neglect of manifold structures of data. In particular, NTF suffers from rotational ambiguity, whose solutions with and without rotation transformations are equally in the sense of yielding the maximum likelihood. In this paper, we propose three Robust Manifold NTF algorithms to handle outliers by incorporating structural knowledge about the outliers. They first applies a half-quadratic optimization algorithm to transform the problem into a general weighted NTF where the weights are influenced by the outliers. Then, we introduce the correntropy induced metric, Huber function and Cauchy function for weights respectively, to handle the outliers. Finally, we introduce a manifold regularization to overcome the rotational ambiguity of NTF. We have compared the proposed method with a number of representative references covering major branches of NTF on a variety of real-world image databases. Experimental results illustrate the effectiveness of the proposed method under two evaluation metrics (accuracy and nmi).
translated by 谷歌翻译
We present a strong object detector with encoder-decoder pretraining and finetuning. Our method, called Group DETR v2, is built upon a vision transformer encoder ViT-Huge~\cite{dosovitskiy2020image}, a DETR variant DINO~\cite{zhang2022dino}, and an efficient DETR training method Group DETR~\cite{chen2022group}. The training process consists of self-supervised pretraining and finetuning a ViT-Huge encoder on ImageNet-1K, pretraining the detector on Object365, and finally finetuning it on COCO. Group DETR v2 achieves $\textbf{64.5}$ mAP on COCO test-dev, and establishes a new SoTA on the COCO leaderboard https://paperswithcode.com/sota/object-detection-on-coco
translated by 谷歌翻译
检测变压器(DETR)依赖于一对一的标签分配,即仅分配一个地面真相(GT)对象作为一个阳性对象查询,用于端到端对象检测,并且缺乏利用多个积极查询的能力。我们提出了一种新颖的DETR训练方法,称为{\ em grout detr},以支持多个积极查询。具体来说,我们将阳性分解为多个独立组,并在每个组中只保留一个阳性对象。我们在培训期间进行了简单的修改:(i)采用$ k $ of Absock Queries; (ii)对具有相同参数的每组对象查询进行解码器自我注意; (iii)为每个组执行一对一的标签分配,从而为每个GT对象提供$ K $阳性对象查询。在推论中,我们只使用一组对象查询,对架构和过程没有任何修改。我们验证了提出的方法对DITR变体的有效性,包括条件DITR,DAB-DER,DN-DEN和DINO。
translated by 谷歌翻译
本文提出了一种新颖的统一特征优化(UFO)范式,用于训练和在现实世界和大规模场景下进行深层模型,这需要集合多个AI功能。不明飞行物的目标是通过对所有任务进行大规模预修。与众所周知的基础模型相比,UFO具有两个不同的重点,即相对较小的模型大小,没有适应性成本:1)UFO以多任务学习方式将广泛的任务挤入中等尺寸的统一模型中并在转移到下游任务时进一步修剪模型大小。 2)不明飞行物不强调转移到新任务。相反,它旨在使修剪模型专门用于一个或多个已经看到的任务。有了这两个特征,UFO为灵活的部署提供了极大的便利,同时保持了大规模预处理的好处。 UFO的一个关键优点是修剪过程不仅可以减少模型的大小和推理消耗,而且还提高了某些任务的准确性。具体而言,UFO考虑了多任务培训,并对统一模型产生了两倍的影响:一些密切相关的任务具有相互利益,而某些任务相互冲突。不明飞行物设法通过新颖的网络体系结构搜索(NAS)方法来减少冲突并保留相互利益。对各种深度表示学习任务(即面部识别,人重新识别,车辆重新识别和产品检索)的实验表明,从UFO中修剪的模型比单件任务训练的对应物更高,但却具有更高的准确性较小的型号大小,验证不明飞行物的概念。此外,UFO还支持发布170亿个参数计算机视觉(CV)基础模型,该模型是该行业中最大的CV模型。
translated by 谷歌翻译
在本文中,我们对检测变压器(DETR)感兴趣,这是一种基于变压器编码器编码器架构的端到端对象检测方法,而无需手工制作的后处理,例如NMS。受到有条件的Detr的启发,这是一种具有快速训练收敛性的改进的DETR,对内部解码器层提出了盒子查询(最初称为空间查询),我们将对象查询重新将对象查询重新布置为盒子查询的格式,该格式是参考参考嵌入的组成点和框相对于参考点的转换。该重新制定表明在更快地使用R-CNN中广泛研究的DETR中的对象查询与锚固框之间的联系。此外,我们从图像内容中学习了盒子查询,从而进一步提高了通过快速训练收敛的有条件DETR的检测质量。此外,我们采用轴向自我注意的想法来节省内存成本并加速编码器。所得的检测器(称为条件DETR V2)取得比条件DETR更好的结果,可节省内存成本并更有效地运行。例如,对于DC $ 5 $ -Resnet- $ 50 $骨干,我们的方法在可可$ Val $ set上获得了$ 44.8 $ ap,$ 16.4 $ fps和有条件的detr相比,它运行了$ 1.6 \ tims $ $ $ $ $,节省$ 74 $ \ \ \ \ \ \ \ \ \ \ \ \ \ $ 74美元总体内存成本的百分比,并提高$ 1.0 $ ap得分。
translated by 谷歌翻译
深度神经网络通过学习从低分辨率(LR)图像到高分辨率(HR)图像的映射,在图像超分辨率(SR)任务中表现出了显着的性能。但是,SR问题通常是一个不适的问题,现有方法将受到一些局限性。首先,由于可能存在许多不同的HR图像,因此SR的可能映射空间可能非常大,可以将其删除到相同的LR图像中。结果,很难直接从如此大的空间中学习有希望的SR映射。其次,通常不可避免地要开发具有极高计算成本的非常大型模型来产生有希望的SR性能。实际上,可以使用模型压缩技术通过降低模型冗余来获得紧凑的模型。然而,由于非常大的SR映射空间,现有模型压缩方法很难准确识别冗余组件。为了减轻第一个挑战,我们提出了一项双重回归学习计划,以减少可能的SR映射空间。具体而言,除了从LR到HR图像的映射外,我们还学习了一个附加的双回归映射,以估算下采样内核和重建LR图像。通过这种方式,双映射是减少可能映射空间的约束。为了应对第二项挑战,我们提出了一种轻巧的双回归压缩方法,以基于通道修剪来降低图层级别和通道级别的模型冗余。具体而言,我们首先开发了一种通道编号搜索方法,该方法将双重回归损耗最小化以确定每一层的冗余。鉴于搜索的通道编号,我们进一步利用双重回归方式来评估通道的重要性并修剪冗余。广泛的实验显示了我们方法在获得准确有效的SR模型方面的有效性。
translated by 谷歌翻译
冻结预训练的主链已成为标准范式,以避免在几次分段中过度拟合。在本文中,我们重新考虑范式并探索一个新的制度:{\ em对骨干中的一小部分参数}进行微调。我们提出了一种解决过度拟合问题的解决方案,从而使学习新颖班级的模型概括更好。我们的方法通过奇异值分解(SVD)将主链参数分解为三个连续的矩阵,然后{\ em仅微调单数值}并保持其他冻结。上面的设计使模型可以在新颖类中调整特征表示,同时在预先训练的主链中保持语义线索。我们在具有不同骨架的各种几种射击分割方法上评估了{\ em单数值微调(SVF)}方法。我们在Pascal-5 $^i $和Coco-20 $^i $上都获得了最先进的结果。希望这个简单的基准将鼓励研究人员重新考虑骨干微调在几次环境中的作用。源代码和模型将在\ url {https://github.com/syp2ysy/svf}上获得。
translated by 谷歌翻译
至于场景图的生成(SGG),由于众包标签,数据集中的粗谓词混合了,并且长尾问题也很明显。鉴于这种棘手的情况,许多现有的SGG方法在一个阶段的混合颗粒性谓词的监督下平均处理谓词,并在一个阶段学习模型,从而导致相对粗糙的预测。为了减轻次优的混合粒度注释和长尾效应问题的负面影响,本文提出了一种新型的层次记忆学习(HML)框架,以从简单到复杂的模型学习该模型,这与人类类似于人类的模型。分层记忆学习过程。在粗糙和细谓词的自主分区之后,该模型首先在粗谓词上训练,然后学习细谓词。为了实现这种层次学习模式,本文首次使用新概念重建(CR)和模型重建(MR)约束来制定HML框架。值得注意的是,HML框架可以作为改善各种SGG模型的一种一般优化策略,并且可以在SGG基准(即视觉基因组)上实现显着改进。
translated by 谷歌翻译
我们介绍了一个高分辨率变压器(HRFormer),其学习了密集预测任务的高分辨率表示,与产生低分辨率表示的原始视觉变压器,具有高存储器和计算成本。我们利用在高分辨率卷积网络(HRNET)中引入的多分辨率并行设计,以及本地窗口自我关注,用于通过小型非重叠图像窗口进行自我关注,以提高存储器和计算效率。此外,我们将卷积介绍到FFN中以在断开连接的图像窗口中交换信息。我们展示了高分辨率变压器对人类姿态估计和语义分割任务的有效性,例如,HRFormer在Coco姿势估算中以$ 50 \%$ 50 + 50美元和30 \%$更少的拖鞋。代码可用:https://github.com/hrnet/hRFormer。
translated by 谷歌翻译
Deepfakes的恶意应用(即,从面部图像产生目标面部属性或整个面部的技术)对个人的声誉和安全构成了巨大的威胁。为了减轻这些威胁,最近的研究已经提出了对抗DeepFake模型的对抗水印,导致它们产生扭曲的输出。尽管结果令人印象深刻,但这些对抗水印具有低的图像水平和模型级可转移性,这意味着它们可以仅保护一个特定的DeepFake模型的一个面部图像。为了解决这些问题,我们提出了一种新的解决方案,可以产生跨模型通用对抗水印(CMUA-Watermark),保护来自多个DeepFake模型的大量面部图像。具体而言,我们首先提出跨模型通用攻击管道,迭代地攻击多个DeepFake模型。然后,我们设计了一种双层扰动融合策略,以减轻不同面部图像和模型产生的对抗水印之间的冲突。此外,我们通过启发式方法解决了跨模型优化的关键问题,以自动找到不同型号的合适的攻击步骤尺寸,进一步削弱了模型级冲突。最后,我们介绍了一种更合理和全面的评估方法来完全测试所提出的方法并将其与现有的方法进行比较。广泛的实验结果表明,所提出的CMUA-Watermark可以有效地扭曲由多个DeepFake模型产生的假面部图像,同时实现比现有方法更好的性能。
translated by 谷歌翻译